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Vorwort 


Dieses Buch gibt eine Einführung in das Thema der logistischen Regression, 
welche eine der Standardmethoden ist, um binäre Zielgrößen zu modellieren. 
Ausgehend von Vorwissen eines Einführungskurses in Wahrscheinlichkeitsrech- 
nung und Statistik sowie linearer Regression (siehe z. B. Fahrmeir et al. 2016 
oder Meier 2020) wird die logistische Regression so eingeführt, dass später auch 
sogenannte verallgemeinerte lineare Modelle einfach verstanden werden können. 

Der Fokus liegt stets auf einem intuitiven Verständnis des Stoffes und einer 
korrekten Interpretation der Resultate. Die Theorie wird jeweils mit Beispielen 
illustriert sowie in der Software R umgesetzt, wobei der entsprechende Output 
ausführlich diskutiert wird, damit eine spätere Umsetzung in der Praxis ein- 
fach gelingt. Minimales Vorwissen in der Software R wird vorausgesetzt (zum 
Einarbeiten oder Nachschlagen eignet sich z. B. Wollschläger 2016). 

Für Verbesserungsvorschläge bedanken wir uns bei Christof Bigler und Oliver 
Sander. Ein großer Dank geht auch an Iris Ruhmann vom Springer Verlag für die 
angenehme Zusammenarbeit. 

Unter 

https://stat.ethz.ch/~meier/teaching/book-logreg/ 


findet man die R-Skripts, Datensätze, weiterführendes Material sowie die Mög- 
lichkeit, allfallige Fehler zu melden. 
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Einleitung 


Wir beginnen mit einem kleinen einfiihrenden Beispiel: Bei einer Krankheit stellt 
sich heraus, dass sich ein bestimmter Blutwert bei kranken und gesunden Personen 
unterscheidet. Während die meisten gesunden Personen einen tiefen Wert haben, ist 
dieser Wert bei kranken Personen typischerweise erhöht. Ein bedeutender Schritt 
in der Diagnose der Krankheit ist gelungen, wenn ein Zusammenhang zwischen 
dem Auftreten der Krankheit und diesem Blutwert modelliert werden kann. Solche 
sogenannten diagnostischen Tests können zum Teil Krankheiten vor Auftreten von 
Symptomen erkennen und somit zur Eindämmung der Krankheit beitragen. Ein 
möglicher Datensatz ist in Abb. 1.1 dargestellt. 
Fragestellungen wie diese sind weit verbreitet: 


Wie hängt der Ausfall einer Maschine von Umweltbedingungen ab? 
Welche Maßnahmen führen dazu, dass ein Kunde zu einem teureren Produkt 
wechselt? 

e Wie kann das Auftreten von Nebenwirkungen durch die Dosis eines Medika- 
ments modelliert werden? 

e Wie kann das Bestehen einer Schulprüfung durch die Lernzeit erklärt werden? 


All diese Fragestellungen haben eine Gemeinsamkeit: Wie kann eine binäre Ziel- 
größe (z.B. krank oder gesund) durch eine oder mehrere erklärende Variablen (z.B. 
Blutwerte, Geschlecht, usw.) modelliert werden? 

Eine solche Modellierung verfolgt häufig zwei Ziele: Einerseits möchte man 
Zusammenhänge verstehen und quantifizieren: „Wie verändert sich die Wahr- 
scheinlichkeit für Nebenwirkungen, wenn die Dosis eines Medikaments um eine 
Einheit erhöht wird?“ Andererseits möchte man präzise Vorhersagen machen 
können: „Wie groß ist die Wahrscheinlichkeit, dass eine Maschine bei gewissen 
Umweltbedingungen ausfällt? Wie zuverlässig ist diese Vorhersage?“ 
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Abb. 1.1 Illustration eines fiktiven Datensatzes. Eingetragen sind die jeweiligen Blutwerte 
von 7 kranken und 7 gesunden Patienten auf dem jeweiligen Zahlenstrahl der Messgröße. 


Ein erster Versuch der Modellierung könnte die lineare Regression sein. Die 
lineare Regression verlangt eine kontinuierliche Zielgröße, allerdings haben obige 
Fragestellungen eine binäre Zielgröße (z.B. krank oder gesund). Die binäre Ziel- 
größe könnte man daher numerisch codieren, z.B. „0“ für krank und „1“ für gesund. 
Technisch ist dieses Vorgehen zwar möglich, aber die Interpretation der Ergebnisse 
ist schwierig: Können modellierte Werte zwischen 0 und 1 als Wahrscheinlichkeiten 
interpretiert werden? Wie interpretiert man negative Werte oder Werte größer als 1? 
Die lineare Regression ist für solche Fragestellungen also nicht gut geeignet. Es ist 
ein besseres, passenderes Modell nötig: die logistische Regression. 

Dieses essential bietet einen verständlichen Zugang zur logistischen Regression. 
Zunächst werden in Kap. 2 mit dem Begriff der Odds die theoretischen Grundlagen 
gelegt. Anschliessend wird in Kap. 3 das Modell der logistischen Regression auf den 
Skalen der Log-Odds, der Odds und der Wahrscheinlichkeit entwickelt. Die einfache 
Umsetzung mit der Statistiksoftware R wird in Kap. 4 an Beispielen illustriert. Der 
Fokus liegt dabei stets auf einer korrekten Interpretation der Modellparameter und 
der richtigen Formulierung in der Praxis. Nach einem Ausblick zur Klassifikation 
in Kap. 5 schliesst das Buch in Kap. 6 mit einer Diskussion von häufigen Problemen 
in der Praxis und zeigt Lösungsansätze auf. 


Open Access Dieses Kapitel unter der Creative Commons Namensnennung 4.0 International 
Lizenz (http://creativecommons.org/licenses/by/4.0/deed.de) veröffentlicht, welche die Nut- 
zung, Vervielfältigung, Bearbeitung, Verbreitung und Wiedergabe in jeglichem Medium und 
Format erlaubt, sofern Sie den/die ursprünglichen Autor(en) und die Quelle ordnungsgemäß 
nennen, einen Link zur Creative Commons Lizenz beifügen und angeben, ob Änderungen 
vorgenommen wurden. 

Die in diesem Kapitel enthaltenen Bilder und sonstiges Drittmaterial unterliegen eben- 
falls der genannten Creative Commons Lizenz, sofern sich aus der Abbildungslegende nichts 
anderes ergibt. Sofern das betreffende Material nicht unter der genannten Creative Commons 
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Aspekte des Wahrscheinlichkeitsbegriffs 2 


Aussagen wie „Die Chancen stehen 4:1, dass es morgen regnet“ oder „Die Chancen 
sind 50:50, dass Du in diesem Spiel gewinnst“ sind im Alltag häufig anzutreffen 
und sagen implizit etwas über die zugrunde liegende Wahrscheinlichkeit der ent- 
sprechenden Ereignisse aus. Was solche Aussagen mathematisch präzise bedeuten, 
schauen wir uns nun in diesem Kapitel genau an, weil es von großer Bedeutung für 
das Verständnis der logistischen Regression ist. 


2.1 Der Begriff der Odds 


Für ein Ereignis A (z.B. A = „Morgen regnet es“) bezeichnen wir mit P(A) die 
entsprechende Wahrscheinlichkeit und mit A“ das entsprechende Komplementär- 
oder Gegenereignis („nicht A“). Sobald man eine Wahrscheinlichkeit hat, kann man 
die sogenannten Odds definieren (wir verwenden typischerweise das englische Wort 
„Odds“ statt „Chance“). 


Definition: Odds (Chance) 
Die Odds (Chance) eines Ereignisses A bezeichnen wir mit odds (A), wobei“ 


P(A) _ P(A) 
P(A‘) 1—P(A) 


odds (A) = € [0,00). 
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Die Zahl odds (A) gibt uns also an, wievielmal wahrscheinlicher das Ein- 
treten von A verglichen mit dem Nicht-Eintreten von A ist. 
Bemerkung: odds (A) ist nur definiert fiir P(A) < 1. 


“Bei der Beschreibung eines Intervalls verwenden wir eine eckige Klammer, wenn der 
Endpunkt zum Intervall gehört und eine runde Klammer, wenn der Endpunkt nicht 
zum Intervall gehört. 


Wenn man von einem Ereignis A den Wert von odds (A) kennt, dann kennt man 
automatisch auch P(A), denn es gilt 


odds (A) 
P(A) = —————.. 
1 + odds (A) 
Dieser Zusammenhang ist in Abb. 2.1 (unten) dargestellt. Oder anders ausgedriickt: 
In den Odds steckt gleich viel Information wie in den Wahrscheinlichkeiten, einfach 
auf einer anderen Skala. Während eine Wahrscheinlichkeit auf dem Intervall [0,1] 
„lebt“, ist dies bei Odds die Menge aller reellen Zahlen größer gleich Null. 


Beispiel: Regen 


Die Wahrscheinlichkeit, dass es morgen regnet (Ereignis A) ist P(A) = 0.8. Die 
Odds, dass es morgen regnet, also odds (A), sind gemäß Formel 


0.8 0.8 


a A) =e 02 


Regen ist also viermal so wahrscheinlich wie kein Regen. Umgekehrt kann man 
aus den Odds die Wahrscheinlichkeit ausrechnen: 


odds (A) 4 


1+odds(A) 1+4 


0.8 
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odds (A) 
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odds (A) 


Abb. 2.1 Zusammenhang zwischen odds (A) und P(A) 


Für die Modellierung in Kap. 3 wird es nützlich sein, einen Wert zu haben, der sich 
auf den ganzen reellen Zahlen (d.h. nicht nur auf der positiven Halbachse) abspielt. 
Dies erreicht man, indem man die Odds geeignet transformiert. Wenn man dabei 
die (natürliche) Logarithmus-Funktion verwendet, spricht man von sogenannten 
Log-Odds. 


P(A) 


2 Aspekte des Wahrscheinlichkeitsbegriffs 


Definition: Log-Odds 
Die Log-Odds eines Ereignisses A bezeichnen wir mit log-odds(A), wobei 


log-odds(A) = log(odds (A)), 


d.h. 
odds (A) = exp(log-odds(A)). 


Bemerkung: log-odds(A) ist nur definiert fiir odds (A) > 0. 


Beispiel: Regen (Fortsetzung) 


Die Log-Odds, dass es morgen regnet, sind log-odds(A) = log(4) © 1.386. 
Umgekehrt können wir aus den Log-Odds die Odds 


odds (A) = exp(log-odds(A)) = exp(1.386) = 4 
und daraus die Wahrscheinlichkeit P(A) berechnen. Dies führt zur Formel 


exp(log-odds(A)) 


ene 1 + exp(log-odds(A)) 

< 

1 
0.8 
0.6 
0.4 
0.2 

o3 4 3 2 1 0 1 2 3 4 5 


log-odds(A) 


Abb. 2.2 Zusammenhang zwischen log-odds(A) und P(A) 
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Der Zusammenhang zwischen log-odds(A) und P(A) ist in Abb. 2.2 dargestellt. 
Wie alle bis jetzt gelernten Größen zusammenhängen und welche Eigenschaften 
diese haben, fassen wir folgendermaßen zusammen: 


Intuition: Wahrscheinlichkeiten, Odds und Log-Odds 

Die wichtigsten Zusammenhänge und Merkregeln: 

e Wahrscheinlichkeit, Odds und Log-Odds eines Ereignisses sind redun- 
dant: Wenn man eine der Größen kennt, kann man die anderen beiden 
Größen damit berechnen. Der einzige Unterschied besteht darin, auf wel- 
cher Skala sich die Information befindet: 


0 < P(A) <1 
0 < odds (A) < co 
—oo < log-odds(A) < oo 


e Anderungen gehen in die gleiche Richtung: Wenn man eine der drei Werte 
größer (bzw. kleiner) macht, werden die anderen beiden auch größer (bzw. 
kleiner). Zum Beispiel „Je größer die Odds, desto größer die Wahrschein- 
lichkeit“. 

e Für seltene Ereignisse (z.B. P(A) < 0.05) liefern Odds und Wahrschein- 
lichkeit in etwa die gleichen Zahlenwerte, d.h. odds (A) = P(A). So gilt 
z. B. für P(A) = 0.05, dass odds (A) ~ 0.0526. 

e Spater niitzliche Faustregeln fiir Log-Odds sind: 


log-odds(A) | —3 
P(A) 5% 


-2|-1 
10 %|25 % 


0 1 
50 %|75 % 


AES 
90 %|95 %| 


Bemerkung: Die Wahrscheinlichkeiten wurden hier jeweils auf 5 % gerun- 
det. 


Im Zusammenhang mit weiteren Ereignissen werden Odds auch mit bedingten 
Wahrscheinlichkeiten verwendet. Für die bedingte Wahrscheinlichkeit von A gege- 
ben B schreiben wir P(A | B). Die bedingte Wahrscheinlichkeit gegeben B ist nichts 
anderes als eine Wahrscheinlichkeit fiir die Situation, bei der wir wissen, dass B 
schon eingetreten ist. Die Odds von A gegeben B sind dann definiert als 
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P(A |B) P(A |B) 
P(A°| B) 1-P(A|B)' 


odds (A | B) = 


Man verwendet einfach die „normale“ Definition mit den entsprechenden bedingten 
Wahrscheinlichkeiten. 


2.2 Vergleich von Wahrscheinlichkeiten und Odds 


Eine Betrachtung mit bedingten Wahrscheinlichkeiten ist insbesondere dann nütz- 
lich, wenn man verschiedene Situationen miteinander vergleichen will. Wir könnten 
z. B. die Wahrscheinlichkeit (oder die Odds) betrachten für das Ereignis A = „Mor- 
gen regnet es“ für die zwei Situationen B = „Wetterprognose kündet Regen an“ 
und C = „Wetterprognose kündet Bewölkung aber keinen Regen an“. Oder aus dem 
medizinischen Bereich: Wie ändert sich die Wahrscheinlichkeit (oder die Odds) für 
Lungenkrebs (Ereignis A), wenn wir Raucher (B) mit Nichtrauchern (C) verglei- 
chen? 

Eine Möglichkeit für einen solchen Vergleich besteht darin, direkt die entspre- 
chenden bedingten Wahrscheinlichkeiten zu betrachten. Dies führt zum sogenannten 
relativen Risiko (auf Englisch Risk-Ratio), abgekürzt mit RR, welches durch das 
Verhältnis der bedingten Wahrscheinlichkeiten gegeben ist (die Wahrscheinlichkeit 
für ein solches nachteiliges Ereignis nennt man auch ,,Risiko“). Formell schreiben 
wir dies als 2 
P(A | B) 


RR(A | B vs. C) = ——— 
P(A|C) 


oder im Beispiel 


P(Lungenkrebs | Raucher) 
P(Lungenkrebs | Nichtraucher) 


RR(Lungenkrebs | Raucher vs. Nichtraucher) = 


Das relative Risiko gibt uns hier direkt an, wievielmal wahrscheinlicher es in der 
Gruppe „Raucher“ ist, an Lungenkrebs zu erkranken, verglichen mit der Gruppe 
„Nichtraucher“. Neben dem relativen Risiko ist auch das absolute Risiko (d.h. die 
bedingte Wahrscheinlichkeit P(Lungenkrebs|Raucher)) von Bedeutung: Ein sehr 
großes relatives Risiko muss nicht zwangsläufig „bedrohlich“ sein, wenn das abso- 
lute Risiko immer noch für den Alltag bedeutungslos ist. 


2.2 Vergleich von Wahrscheinlichkeiten und Odds 9 


Beispiel: Relatives und absolutes Risiko 


Zwei Medikamente A und B kommen fiir eine Behandlung in Frage. Die Wahr- 
scheinlichkeit fiir eine bestimmte Nebenwirkung ist bei Medikament A gleich 
0.0001 und bei Medikament B gleich 0.001. Die Wahrscheinlichkeit fiir die 
Nebenwirkung ist also bei Medikament B zehnmal so groß wie bei Medikament 
A. Das relative Risiko ist 10 und somit scheint Medikament B deutlich gefähr- 
licher als Medikament A. Allerdings ist das absolute Risiko bei Medikament B 
immer noch sehr klein. Je nach anderen Vorzügen dieses Medikaments könnte 
es daher dennoch zur Anwendung kommen. < 


Anstelle von bedingten Wahrscheinlichkeiten können wir auch die entspre- 
chenden Odds miteinander vergleichen. Im Beispiel würden wir 
also odds (Lungenkrebs|Raucher) mit odds (Lungenkrebs|Nichtraucher) verglei- 
chen. Wenn wir das entsprechende Verhältnis betrachten, führt dies zum sogenann- 
ten Odds-Ratio. 


Definition: Odds-Ratio 

Das Odds-Ratio (auch: Chancenverhältnis oder relative Chancen) 
OR(A| Bvs.C) ist definiert als das Verhältnis von odds(A|B) zu 
odds (A | C), d.h. 


OR(A | B vs. C) 


_ odds(A|B) (_ P(A|B) 1-P(AIC) 
~ odds (A/C) (= m) 


Weil die Odds schon selber ein Verhältnis sind, bezeichnet man das Odds- 
Ratio auch als Doppelverhältnis. 


Beispiel: Wirksamkeit eines Medikaments für zwei Patientengruppen 

Wir schauen uns ein Medikament an und das Ereignis A = „Patient geheilt“ für 
die beiden Gruppen B = „Standardpatient“ und C = „Patient mit Zusatzerkran- 
kungen“. Es seien 


P(A | B) = 0.9bzw. P(A | C) = 0.5. 


Für das relative Risiko gilt 


10 


zu 
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RR(A | B vs. C) PA 
WS) = Palo 05° 


1.8. 


Die (bedingte) Wahrscheinlichkeit, geheilt zu werden, ist also bei Standardpati- 
enten 1.8-mal so groß wie bei Patienten mit Zusatzerkrankungen. 

Auf der Skala der Odds haben wir odds (A | B) = 9 und odds (A | C) = 1, was 
zu einem Odds-Ratio von 


odds (A| B) 9 
odds(A|C) 1 


OR(A| B vs. C) = =9 


führt. Die Odds, geheilt zu werden, sind also bei den Standardpatienten 9-Mal 
so groß wie bei den Patienten mit Zusatzerkrankungen. 
< 


Bei all diesen Vergleichen ist es wichtig, dass diese im Alltag richtig interpretiert 
werden. Ein typischer Fehler besteht z. B. darin, das Odds-Ratio und das Risk-Ratio 


verwechseln. Die Interpretation ist fiir das Odds-Ratio zu Beginn sicher am 


schwierigsten. Wie wir später in Kap. 3 sehen werden, hat das Odds-Ratio diverse 
Vorteile und taucht später bei der logistischen Regression „ganz natürlich“ auf. 


Die wichtigsten Merkregeln schreiben wir daher jetzt schon auf: 


Intuition: Merkregeln Odds-Ratio 
Für das Odds-Ratio nützliche Merkregeln: 


OR(A | B vs. C) = 1 Es gibt keinen Unterschied zwischen den Odds von A 
wenn man die Situationen B und C vergleicht (und 
damit ist auch die Wahrscheinlichkeit von A gleich). 

OR(A | Bvs.C) > 1 Die Odds von A sind in der Situation B erhöht ver- 
glichen mit C (und damit auch die Wahrscheinlichkeit 
von A). 

OR(A | Bvs.C) < 1 Die Odds von A sind in der Situation B reduziert ver- 
glichen mit C (und damit auch die Wahrscheinlichkeit 
von A). 
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Das logistische Regressionsmodell 


Die logistische Regression und die lineare Regression haben eine Gemeinsamkeit: 
Beide versuchen eine Zielgröße durch erklärende Variablen zu modellieren. Wie 
und auf welcher „Stufe“ dies passiert, schauen wir uns in diesem Kapitel an. Wir 
wiederholen zuerst die lineare Regression. Im Folgenden gehen wir der Einfachheit 
halber von nur einer erklärenden Variable aus. Genau gleich wie ein einfaches 
lineares Regressionsmodell mit nur einer erklärenden Variablen zu einem multiplen 
linearen Regressionsmodell erweitert werden kann, ist dies auch bei der logistischen 
Regression möglich. 


3.1 Lineare Regression unter einem neuen Blickwinkel 


Das lineare Regressionsmodell für die Daten (x;, y;),i=1,...,n wird typischer- 
weise geschrieben als 


Y; = Pot pirr zi tEn i=1,...,n, (3.1) 


wobei E; unabhängige normalverteilte Fehler sind, d.h. E; i.i.d. “N (0, o°). Wir 
verwenden die englische Abkürzung i.i. d. für „independent and identically distri- 
buted“. Die Annahme der Unabhängigkeit bedeutet konkret, dass die Fehler der 
einzelnen Beobachtungen nichts miteinander zu tun haben (also dass z. B. kein zeit- 
licher, räumlicher oder sonstiger Zusammenhang zwischen den Fehlern vorhanden 
ist etc.). 


© Der/die Autor(en) 2021 13 
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Abb. 3.1 Illustration des datengenerierenden Prozesses bei der einfachen linearen Regres- 
sion. Für drei verschiedene Werte der erklärenden Variable x ist die entsprechende Verteilung 
der Zielgröße Y dargestellt. Die Gerade Bp + 61x ist als durchgezogene Linie eingezeichnet. 
Die Darstellung basiert auf Meier (2020). 


Wenn wir Gl. (3.1) analysieren, können wir folgende Eigenschaft ablesen: An jeder 
Stelle x; streut Y; gemäß einer Normalverteilung um den Wert Bo + ßı - x; herum, 
was wir auch als 


Y; ~N (Bo + Bı xi, 07) 


schreiben können (siehe Abb.3.1). Wir sehen insbesondere, dass die erklärende 
Variable nur den Erwartungswert dieser Normalverteilung beeinflusst, und zwar 
durch den Zusammenhang 


E(Y)= Bo + Bi - xi. 


Diese Denkweise erlaubt uns, das lineare Regressionsmodell als „zweistufiges“ 
Modell zu interpretieren. Die zwei Stufen sind: 


1. Verteilung der Zielvariable festlegen 
2. Geeignete Parameter obiger Verteilung durch erklärende Variable beschreiben 


Als Parameter wird dabei in der Regel der Erwartungswert verwendet. Verglichen 
mit der „direkten“ Schreibweise in Gl. (3.1) erscheint dieses Vorgehen vielleicht auf 
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den ersten Blick als ein unnötiger Abstraktionsschritt. Es erlaubt aber später eine ein- 
fache Erweiterung auf Fälle, bei denen die Normalverteilung nicht mehr angebracht 
ist. Wir fassen dies nochmals als „neue“ Definition für das lineare Regressionsmo- 
dell zusammen. 


Definition: Lineare Regression als zweistufiges Modell 
Das lineare Regressionsmodell kann folgendermaßen als zweistufiges Modell 
hingeschrieben werden: 


1. Verteilung der Zielvariable festlegen: 
Y ~N (u(x), o°) 

2. Erwartungswert obiger Verteilung durch erklärende Variable beschreiben: 
M(x) = o + 1: x 


Für konkret vorliegende Daten (x;, yj), i = 1,...,n gehen wir davon aus, 
dass die Werte y; jeweils unabhdngige Realisierungen von obiger Normal- 
verteilung sind. 


Obwohl Y von x abhängt, lassen wir diese Abhängigkeit zu Gunsten einer einfachen 
Notation weg. D.h., wir schreiben bei obigem ersten Punkt jeweils auf der linken 
Seite nicht Y(x) oder Y | x, sondern lediglich Y. 

Wir fassen nochmals in Worten zusammen: 

Der erste Teil legt fest, dass die Beobachtungen Y von einer Normalverteilung 
stammen. Diese Normalverteilung hat zwei Parameter: Erwartungswert u und Vari- 
anz o”. Durch die Notation u(x) drücken wir aus, dass der Erwartungswert u von 
der erklärenden Variable x abhängt. Der zweite Parameter, die Varianz o?, wird als 
konstant angenommen. 

Im zweiten Teil legen wir fest, wie der funktionelle Zusammenhang zwischen 
dem Erwartungswert u(x) und der erklärenden Variable x sein soll. Hier gibt es 
sehr viele Möglichkeiten, aber wir beschränken uns auf eine Funktion, die in den 
Parametern fo und £; linear ist. Diese Funktion nennt man auch linearer Prädiktor. 
Der Begriff „linear“ bezieht sich dabei auf Bp und £; (d.h., wenn man nach fo oder 
B, ableitet, verschwindet der entsprechende Parameter) und nicht auf die erklärende 
Variable x. D.h., wir könnten die erklärende Variable x auch durch x? oder log(x) 
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ersetzen und hätten immer noch eine lineare Regression vor uns. Später verwenden 
wir für den linearen Prädiktor oft den griechischen Buchstaben n, d.h., für die i-te 
Beobachtung haben wir dann n; = Bo + ßıxi, bzw. etwas allgemeiner eine Funktion 
von x: n(x) = Bo + Bix. 

Ein typischer Fehler besteht tibrigens darin, im zweiten Teil des zweistufigen 
Modells einen Fehlerterm hinzuzufiigen. Der Fehlerterm ist auf den ersten Blick 
„verschwunden“. Natürlich ist er immer noch da, denn er ist der Grund fiir die 
Normalverteilung im ersten Teil des zweistufigen Modells. 


3.2 _ Logistische Regression als zweistufiges Modell 


Die logistische Regression folgt dem gleichen zweistufigen Prinzip. Das Ziel besteht 
darin, eine binäre Zielgröße Y € {0,1} zu modellieren. Y kann also nur die beiden 
Werte 0 oder 1 annehmen, die für die beiden möglichen Zustände der Zielgröße ste- 
hen (z. B. 0: „krank“ und 1: „gesund“). Als Verteilung dafür bietet sich die Bernoulli- 
Verteilung an, die nur einen Parameter, die Erfolgswahrscheinlichkeit p € [0,1] 
besitzt. Es ist p = P (Y = 1), d.h. 


y= 1 Wahrscheinlichkeit p 
~~ |0 Wahrscheinlichkeit 1 — p. 


Bemerkung: Direkt verwandt mit der Bernoulli-Verteilung ist die Binomialvertei- 
lung. Die Binomialverteilung modelliert die Anzahl der Erfolge bei n unabhängi- 
gen Bernoulli-Verteilungen („Experimente“) mit Erfolgswahrscheinlichkeit p. Wir 
schreiben hierzu Bin (n, p). In diesem Sinne kann die Bernoulli-Verteilung auch als 
Binomialverteilung mit n = 1 interpretiert werden. 

Die Idee besteht nun darin, die Erfolgswahrscheinlichkeit p als Funktion der 
erklärenden Variable x zu modellieren, d.h. 


Y > Bernoulli (p(x)). 


Verglichen mit der linearen Regression tritt die Erfolgswahrscheinlichkeit der 
Bernoulli-Verteilung also an die Stelle des Erwartungswerts der Normalerver- 
teilung. Dem mathematisch versierten Leser ist aber vielleicht schon aufgefal- 
len, dass wir eigentlich immer noch den Erwartungswert betrachten, denn es gilt 
2 (Y) = p(x). 

Bemerkungen: (i) Obwohl Y von x abhängt, lassen wir diese Abhängigkeit wie 
schon bei der linearen Regression zu Gunsten einer einfacheren Notation weg. (ii) 
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Man kann p(x) auch als bedingte Wahrscheinlichkeit interpretieren: p(x) beschreibt 
die Wahrscheinlichkeit für das Ereignis Y = 1 unter der Annahme, dass die erklä- 
rende Variable X den konkreten Wert x annimmt, d.h. p(x) = P (Y = 1| X = x). 

Um die logistische Regression als zweistufiges Modell zu schreiben fehlt nur 
noch der funktionale Zusammenhang zwischen der Erfolgswahrscheinlichkeit p(x) 
und der erklärenden Variable x. Naheliegend wäre der gleiche Ansatz wie bei der 
linearen Regression: Die Gewinnwahrscheinlichkeit wird als lineare Funktion der 
erklärenden Variable (linearer Prädiktor) modelliert, d.h. p(x) = fo + bı- x. 
Allerdings stoßen wir dabei auf ein Problem: Je nach Wert der erklärenden Variable 
x kann der lineare Prädiktor n = n(x) = Bo + ßı - x eine beliebige Zahl sein. Die 
Erfolgswahrscheinlichkeit muss allerdings im Intervall [0, 1] liegen! 

Dieses Problem können wir lösen, indem wir den linearen Prädiktor so trans- 
formieren, dass das Ergebnis für beliebige Werte von x immer im gewünschten 
Intervall [0,1] liegt. Eine solche Transformation haben wir schon einmal gesehen, 
nämlich in Abb. 2.2. Diese Funktion hat einen eigenen Namen, es handelt sich um 
die sogenannte logistische Funktion. Formell ist sie gegeben durch 


n 


h = 
(n) E 


‚neR. 


Die Funktion A ist (nochmals!) in Abb. 3.2 dargestellt. Wie man in Abb. 3.2 erahnen, 
bzw. auch formell herleiten kann, gilt 


lim h(n) =0 
n—>— oo 
lim h(n) = 1 
n—> œ 
h(0) = 0.5. 


Wir erhalten so 


P(Y =1|X =x) = p(x) = h(n(x)) = A(Bo + Bi - x) 
_ _&P (Bo + Bi - x) 
1 + exp (Bo + Bi - x) 


€ [0,1]. 


Dies sieht auf den ersten Blick vielleicht etwas kompliziert aus, sorgt aber dafiir, 
dass für beliebige Werte von x immer ein Wert zwischen 0 und 1 für die modellierte 
Wahrscheinlichkeit resultiert. 

Üblicherweise formt man diesen Zusammenhang so um, dass auf der rechten 
Seite wieder der lineare Prädiktor steht, also so, wie wir es von der linearen Regres- 
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h(n) 


Abb. 3.2 Darstellung der logistischen Funktion auf dem Bereich —4 < ņ < 4 


sion kennen. Das führt zu folgendem Zusammenhang: 


P(Y=1|X=x) E p(x) 7 7 
oe (eS) toe (PO) = fv + i = nt 


Erkennen Sie den Ausdruck auf der linken Seite wieder? Es sind die Log-Odds, die 
wir in Abschn. 2.1 behandelt haben. Die Log-Odds transformieren also die Erfolgs- 
wahrscheinlichkeit so, dass man sie ohne technische Probleme direkt mit dem linea- 
ren Prädiktor modellieren kann. Allgemein nennt man eine Funktion g, die einen 
technisch sinnvollen Zusammenhang zwischen Erwartungswert (hier: Erfolgswahr- 
scheinlichkeit p) und linearem Prädiktor 7 ermöglicht, eine Linkfunktion. Oder 
in anderen Worten: Die Linkfunktion g „verbindet“ den Erwartungswert mit dem 
linearen Prädiktor. Die logistische Regression verwendet als Linkfunktion die Log- 


Odds, d.h., es ist 
P 
g(p) = log (4) > 
=p 


welche auch als Logit-Funktion bezeichnet wird und der Umkehrung der logisti- 
schen Funktion entspricht. 

Übrigens: Bei der linearen Regression war keine Transformation des Erwar- 
tungswerts (dort: u) nötig. Die lineare Regression verwendet also als Linkfunktion 
die Identitätsfunktion, d.h. g (u) = u. 

Jetzt sind wir in der Lage, die logistische Regression in der üblichen Dar- 
stellungsform zu verstehen. Um die Notation kompakt zu halten, bleiben wir im 
Folgenden allerdings vorwiegend bei der abkürzenden Schreibweise p(x) statt 
P(Y =1|X =x). 


3.2 Logistische Regression als zweistufiges Modell 19 


Definition: Logistische Regression als zweistufiges Modell 

Die logistische Regression kann folgendermaßen als zweistufiges Modell hin- 
geschrieben werden: 

1. Verteilung der Zielvariable festlegen: 


Y ~ Bernoulli (p(x)) 


2. Erwartungswert obiger Verteilung durch linearen Prädiktor beschreiben: 


og (=) = Bot 1 -x = n(x), 


bzw. äquivalent dazu 


_ exp (Bo + Bi - x) 
p) = . 
1 + exp (Bo + Bi x) 


Für konkret vorliegende Daten (x;, y;), i = 1,...,n gehen wir davon aus, 
dass die Werte y; jeweils unabhdngige Realisierungen von obiger Bernoulli- 
Verteilung sind. 


Oder nochmals kompakt in Worten: Die Beobachtungen Y stammen von einer 
Bernoulli-Verteilung mit Erfolgswahrscheinlichkeit p(x). Die Erfolgswahrschein- 
lichkeit p(x) wird über den „Umweg“ der Log-Odds (Linkfunktion) mit einer linea- 
ren Funktion (linearer Prädiktor) modelliert. 

Zusammenfassend findet man in Tab. 3.1 die lineare und die logistische Regres- 
sion im Vergleich. 

Die Umkehrung der Linkfunktion wird manchmal auch als Antwortfunktion h 
bezeichnet. Sie berechnet aus dem linearen Prädiktor den entsprechenden Erwar- 
tungswert („Umkehrung der Linkfunktion‘“). Zur Erinnerung: Bei der logistischen 
Regression haben wir 

ell 
l+e" 


Dieser Zusammenhang ist auch nochmals in Abb. 3.3 dargestellt. 


h(n) = 
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Tab. 3.1 Vergleich der linearen und der logistischen Regression 


Komponente Lineare Regression Logistische Regression 
Verteilung Normalverteilung Bernoulli-Verteilung 
Erwartungswert ux)eR p(x) € [0,1] 
Linearer Prädiktor n(x) = o + 1 -x n(x) = o + 1 -x 
Linkfunktion Identitätsfunktion: Logit-Funktion: 

ua) = 10) log ( 72625) = n(x) 


Linkfunktion g(p) = log (5) ER 


a 


Erwartungswert (hier: p) Linearer Prädiktor 77 


m 


Antwortfunktion h(n) = a 2 je [0, 1] 


Abb. 3.3 Zusammenhang zwischen Erwartungswert und linearem Prädiktor am Beispiel der 
logistischen Regression 


Bemerkung: Bei der linearen Regression gab es noch einen zweiten Parameter, die 
Varianz o°. Bei der logistischen Regression ist dies nicht mehr der Fall. Der Grund 
liegt darin, dass mit der Erfolgswahrscheinlichkeit p bei der Bernoulli-Verteilung 
sowohl der Erwartungswert als auch die Varianz modelliert werden. In der Tat ist 
die Varianz gegeben durch p - (1 — p). Diese direkte „Ankoppelung“ der Varianz an 
den Erwartungswert kann problematisch sein und muss in der Praxis natürlich nicht 
zwangsläufig erfüllt sein. Mehr dazu in Kap. 6 unter dem Stichwort „quasibinomial“. 


Ausblick: Verallgemeinerte lineare Modelle 
Dieses zweistufige Schema lässt sich noch auf viele andere Verteilungen anwenden 
und führt zu den sogenannten verallgemeinerten linearen Modellen (auf Englisch: 
generalized linear models oder kurz: GLM), die immer aus obigen Komponenten 
bestehen. 

Wenn man Anzahlen modellieren will, bietet sich oft eine Poisson-Verteilung 
(mit Parameter A > 0) an. Man hat dann die in Tab. 3.2 aufgelisteten Komponenten. 
Man spricht von der sogenannten Poisson-Regression. 
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Tab. 3.2 Komponenten der Poisson-Regression 


Komponente Poisson-Regression 
Verteilung Poisson-Verteilung 
Erwartungswert A(x) > 0 
Linearer Prädiktor n(x) = o + Bi x 
Linkfunktion Logarithmus: 

log A (x)) = n(x) 


3.3 Alternativ: Logistische Regression als latentes 
Variablenmodell! 


Wir können das logistische Regressionsmodell auch als sogenanntes latentes Varia- 
blenmodell interpretieren. Als latente Variable bezeichnet man eine Variable, 
deren Wert wir nicht direkt beobachten können. Nur gewisse Eigenschaften der 
Variable, z. B. ob deren Wert größer oder kleiner gleich Null ist, sind bekannt. 
Wir starten mit einem „normalen“ linearen Regressionsmodell für die latente 
Variable Z;, d.h. 
Zi = Bo + Pixi + Ei. 


Für die Fehler E; nehmen wir einmal an, dass diese i. i. d. und symmetrisch um Null 
herum verteilt sind (aber nicht zwangsläufig normalverteilt). 

Wenn wir nicht den effektiven Wert von Z; beobachten können, sondern nur, 
ob Z; größer als Null ist oder nicht, erhalten wir als „beobachtbare“ Zielgröße Y;, 
wobei 


Y; folgt als binäre Variable also einer Bernoulli-Verteilung mit Erfolgswahrschein- 
lichkeit 


P (Y; = 1) = P (Bo + Bix + Ei > 0) = P(E; > (Bo + Bixi)) = P(E; < Bo + Pixi), 


wobei die letzte Gleichung aus der Symmetrie der Verteilung der Fehler E; folgt. 
Wenn wir annehmen, dass die Fehler einer sogenannten logistischen Verteilung 
mit Dichte f und kumulativer Verteilungsfunktion F folgen, wobei 


! Dieser Abschnitt kann beim ersten Lesen auch übersprungen werden. 
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= ; = ‘ER, 
a a 
so erhalten wir 
eßo+BıXi 
al 1 + eBo+Bıxi ` 


Dies hat die gleiche Form wie das logistische Regressionsmodell! Das logisti- 
sche Regressionsmodell entspricht also einem linearen Regressionsmodell für eine 
latente Variable mit logistischer Fehlerverteilung! 

Bemerkung: Die logistische Verteilung (siehe Abb. 3.4) ist symmetrisch um Null 
und hat qualitativ eine ähnliche Form wie eine Normalverteilung. 


Intuition: Latentes Variablenmodell 

Das latente Variablenmodell kann nützlich sein, um die logistische Regression 

zu verstehen oder zu motivieren. Oft hat die latente Variable die Art eines 

„Potentials“, das wir nicht direkt beobachten können, sondern nur, ob es 

realisiert oder umgesetzt wurde. Einige Beispiele: 

e Baby lernt gehen: Wir können die neuromotorischen Fähigkeiten nicht 
direkt messen, sehen aber, ob es mit dem Gehen schon klappt oder nicht. 

e Fahrprüfung bestehen: Durch Lernen und Üben werden Fähigkeiten ver- 
bessert, die wir nicht direkt messen können. Allerdings helfen größere 
Fähigkeiten, die Fahrprüfung zu bestehen. 


Abb. 3.4 Dichte der logistischen Verteilung auf dem Bereich —4 < x < 4 
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3.4 Interpretation der Parameter 


In der Praxis besteht das Ziel darin, anhand von beobachteten Daten Werte fiir 
Bo und f; zu schätzen. Wie dies gemacht wird, schauen wir in Abschn.3.5 kurz 
vom mathematischen Standpunkt aus an. Die Umsetzung in der Praxis mit der 
Statistiksoftware R ist dann das Thema in Kap. 4. Weil das Schätzen der Parameter 
dank des Computers sehr einfach ist, liegt die Hauptaufgabe darin, die (geschätzten) 
Modellparameter richtig zu interpretieren. 

Um den Einfluss des Achsenabschnitts Bo und der Steigung ßı besser zu verste- 
hen, sindin Abb. 3.5 sowohl die Log-Odds als auch die Wahrscheinlichkeiten für ver- 
schiedene Parametersettings eingezeichnet. Auf der Skala der Log-Odds haben wir 
das von der linearen Regression bekannte Bild mit Geraden. Dies führt schon jetzt 
zur Faustregel: „Die Interpretation der Modellparameter der logistischen Regression 
auf der Skala der Log-Odds ist genau gleich wie bei der linearen Regression“. 

Auf der Skala der Wahrscheinlichkeiten können wir folgendes ablesen: Mit dem 
Achsenabschnitt £o findet nur eine Verschiebung der Kurven nach links oder rechts 
statt. Die Steigung 6; steuert die Trennschärfe: Für betragsmäßig große Werte von 
B, wechselt die Kurve schnell von sehr kleinen Wahrscheinlichkeiten zu sehr großen 
(d. h., das Modell ist sehr trennscharf). Genau umgekehrt sieht es aus für betragsmä- 
Big kleine Werte von ßı. Die Kurve ist dann eher flach. Natürlich hängt die Größe 
des Koeffizienten 6; auch direkt davon ab, in welchen Einheiten die erklärende 
Variable gemessen wird (z.B. cm vs. mm). 

Wie der Effekt der Modellparameter auf den verschiedenen Skalen genau quan- 
tifiziert und interpretiert wird, schauen wir uns nun anhand eines Beispiels genauer 
an. 


3.4.1 Bedeutung der Modellparameter: Skala Log-Odds 


Besonders einfach ist wie oben schon erwähnt die Interpretation der Parameterwerte 
auf der Skala der Log-Odds. Die Log-Odds werden in unserem Modell durch eine 
Gerade modelliert. Der Achsenabschnitt ist Bo und die Steigung ßı. Das heißt, für 
x = 0 sind die Log-Odds gleich 6p. Wenn man x um eine Einheit erhöht, erhöhen 
sich die Log-Odds um den Wert £1. Mit den Faustregeln für die Umrechnung von 
Log-Odds in Wahrscheinlichkeiten (siehe Abschn. 2.1) gelingt eine rasche Inter- 
pretation der geschätzten Parameter. 
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log-odds(Y = 1) 


Abb. 3.5 Abhiingigkeit der Log-Odds (links) und der Wahrscheinlichkeit (rechts) fiir ver- 
schiedene Parametersettings: By = 0, 6} = 1 (durchgezogen), ßo = —1, 61 = 1 (gestrichelt), 
Bo = 0, 61 = 2 (gepunktet) und Bo = 0, ßı = 0.5 (strich-punktiert) 


Beispiel: Diagnostischer Test - Skala Log-Odds 


Wir betrachten einen (medizinischen) diagnostischen Test, der mittels eines Blut- 
wertes den Gesundheitszustand angibt: Die erklärende Variable x sei der gemes- 
sene Blutwert. Die Zielgröße Y ist 1, falls die Person krank ist und 0, falls die 
Person gesund ist. Wir nehmen an, dass folgendes logistisches Regressionsmo- 
dell gilt: Y ~ Bernoulli (p(x)), wobei 


PY =1|X =x) p(x) 
0) = tog (29) - 2+0.5-x. 


Welche Schlüsse können wir daraus ziehen? 


e Der Achsenabschnitt ist do = —2: Wenn der Blutwert x = 0 gemessen 
wurde, sind die Log-Odds für Krankheit gleich —2. Das entspricht (z.B. 
gemäß Tabelle in Abschn. 2.1) einer Wahrscheinlichkeit von etwa 10 %, krank 
zu sein. 

e Effektstarke: Die Steigung ist 8; = 0.5. Wenn der Blutwert um eine Einheit 
größer wird, dann werden gemäß Modell die Log-Odds für Krankheit um 
0.5 größer. Je höher der Blutwert, desto größer also die Wahrscheinlichkeit, 
krank zu sein. 

e Vorhersage: Wir können mit diesem Modell Vorhersagen für beliebige Werte 
von x machen. Wenn der Blutwert z.B. den Wert x = 6 annimmt, sind die 
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Log-Odds für Krankheit —2 + 0.5 - 6 = 1, was einer Wahrscheinlichkeit von 
(gerundet) 75% entspricht, krank zu sein. 


3.4.2 Bedeutung der Modellparameter: Skala Odds 


Auch auf der Skala der Odds ist eine einfache Interpretation der Parameter möglich. 
Dazu lösen wir die Modellgleichung mit der Exponentialfunktion nach den Odds 
auf: 


yon. P@=1X=n pæ 
u er ey ay te) 
= exp(ßo + 1 - x) 


= exp(Bo) - exp(Ai - x) 


Für x = 0 sind die Odds für Krankheit gleich exp(ßo). Wenn man x um eine Einheit 
erhöht, dann wird der Faktor exp(ßı - x) zu 


exp(ßı - x) > exp(ßı (x + 1)) = exp(Ai - x) - exp(Pßi). 
Das bedeutet, dass sich die Odds um den Faktor exp(ßı) ändern, d.h. 


odds (Y = 1| X = x + 1) = odds (Y = 1 | X = x) - exp(ßı). 


Daraus lässt sich das entsprechende Odds-Ratio berechnen: 


OR(Y =1|X re ) odds (Y = 1|X =x+ 1) o) 
— = VS. = == = ex A 
7 x odds (Y = 1|X =x) Pu 


Wir sehen insbesondere: Unabhängig vom Wert von x hat eine Erhöhung von x um 
eine Einheit immer den gleichen multiplikativen Effekt auf die Odds. Oder: Das 
entsprechende Odds-Ratio ist immer exp(ß1ı). Das Odds-Ratio lässt sich also sehr 
einfach aus dem Parameter £, der logistischen Regression ermitteln. 
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Beispiel: Diagnostischer Test (Fortsetzung) - Skala Odds 


Auf der Skala der Odds können wir folgende Schlüsse ziehen: 


e Effektstärke: Es ist exp(6,) = exp(0.5) ~ 1.65. Wenn sich der Blutwert x 
um eine Einheit erhöht, dann erhöhen sich die Odds für Krankheit um den 
Faktor 1.65. Das entsprechende Odds-Ratio ist also 1.65. 

e Vorhersage: Auch auf der Skala der Odds können wir Vorhersagen für belie- 
bige Werte von x machen. Für x = 6 sind die Log-Odds gleich 1 (siehe das 
ursprüngliche Beispiel) und somit sind die Odds exp(1) ~ 2.718. 


3.4.3 Bedeutung der Modellparameter: Skala 
Wahrscheinlichkeiten 


Auf der Skala der Wahrscheinlichkeiten ist die Interpretation der Parameter schwie- 
riger. Die Effektstärke lässt sich nicht mehr „universell“ quantifizieren. Wir haben 
gesehen: Wenn wir die erklärende Variable x um eine Einheit erhöhen, hat dies 
auf der Skala der Log-Odds eine Verschiebung um eine Konstante (61) zur Folge. 
Unabhängig vom Startwert der Log-Odds wird eine Erhöhung von x um eine Einheit 
die Log-Odds also immer um den Wert 6; erhöhen. Der Zusammenhang zwischen 
Log-Odds und Wahrscheinlichkeit ist allerdings nicht linear. Eine fixe Erhöhung der 
Log-Odds um den Wert £; führt daher zu unterschiedlichen Erhöhungen der Wahr- 
scheinlichkeit, je nachdem, bei welchem Wert der Wahrscheinlichkeit man startet. 
Dies können wir auch an folgender Tabelle einsehen: 


Log-Odds —2 | —1 | 0 
Wahrscheinlichkeit| 10 %|25 %|50 % 


Die Log-Odds von —2 entsprechen einer Wahrscheinlichkeit von etwa 10 %. Wenn 
wir die Log-Odds um 1 auf den Wert —1 erhöhen, verändert sich die dazugehörige 
Wahrscheinlichkeit auf den Wert 25 %. Die Wahrscheinlichkeit wurde also um 15 % 
größer. Wenn wir die Log-Odds nochmals um 1 auf den Wert 0 erhöhen, verändert 
sich die dazugehörige Wahrscheinlichkeit auf den Wert 50 %. Die Wahrscheinlich- 
keit hat sich diesmal also um 25 % und nicht wie vorher um 15 % verändert. Wir 
sehen: Je nach Startwert hat die Erhöhung der Log-Odds um eine additive Konstante 
also eine unterschiedliche Auswirkung auf die dazugehörige Wahrscheinlichkeit! 
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Was kann man trotzdem aussagen? Die „Richtung“ des Effekts ist universell 
gültig und durch das Vorzeichen von 6 gegeben. Wenn ßı positiv ist, bedeutet dies: 
Eine Erhöhung von x hat zur Folge, dass sich die Wahrscheinlichkeit für Y = 1 
erhöht (hierzu ist es auch nützlich, sich das Ganze mit dem latenten Variablenmodell 
aus Abschn. 3.3 vorzustellen). Genau umgekehrt geht es mit negativem Vorzeichen. 

Weiterhin problemlos möglich sind Vorhersagen, weil wir zu jedem vorherge- 
sagten Wert der Log-Odds durch Umformen die dazugehörige Wahrscheinlichkeit 
berechnen können. 


Beispiel: Diagnostischer Test (Fortsetzung) - Skala Wahrscheinlichkeit 


e Effektstärke: Nicht einfach quantifizierbar. Aber, weil hier 6; positiv ist, 
gilt: Je größer x, desto größer die Wahrscheinlichkeit, krank zu sein (Y = 1). 
e Vorhersage: Auch auf der Skala der Wahrscheinlichkeiten können wir Vor- 
hersagen für beliebige Werte von x machen. Für x = 6 sind die Log-Odds 
gleich 1 (siehe vorangehendes Beispiel) und somit ist die Wahrscheinlichkeit 


exp) 20.73 


PN Teel) 


3.4.4 Überblick 


Zusammenfassend erhalten wir also bei einer Veränderung von x nach x + 1 auf 
den verschiedenen Skalen die in Tab. 3.3 aufgelisteten Auswirkungen. 

Eine entsprechende Visualisierung für das Modell des Beispiels findet man in 
Abb. 3.6 auf allen drei Skalen. 


Tab. 3.3 Übersicht über die Bedeutung der Modellparameter auf den verschiedenen Skalen 


Skala Veränderung, wenn x zu x + 1 wird 

Log-Odds Additive Veränderung um den Wert ßı 

Odds Multiplikative Veränderung um den Faktor exp(fı) 

Wahrscheinlichkeit Nicht universell quantifizierbar, Richtung gegeben durch das 
Vorzeichen von 1 
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Abb. 3.6 Zusammenhang zwischen der erklärenden Variable x und Log-Odds, Odds bzw. 
Wahrscheinlichkeit 


3.4.5 Mehrere erklärende Variablen 


Die multiple logistische Regression ist eine Erweiterung auf mehrere erklärende 
Variablen. Wie bei der multiplen linearen Regression werden nun mehrere erklä- 
rende Variablen verwendet. In der Regel werden numerische und kategorielle Varia- 
blen, also Faktoren, verwendet. Auch Wechselwirkungen (Interaktionen) zwischen 
erklärenden Variablen sind möglich. 

Vorsicht ist bei der Interpretation der Parameter geboten. Bei einer multiplen 
Regression (egal ob linear oder logistisch) werden bereinigte Zusammenhänge 
berechnet. Also der Zusammenhang zwischen einer erklärenden Variable und der 
Zielgröße, wenn die übrigen erklärenden Variablen konstant bleiben. 


Beispiel: Diagnostischer Test: Einfache vs. multiple logistische Regression 


Bisher haben wir in diesem Beispiel eine einfache logistische Regression mit 
einer einzigen erklärenden Variable (Blutwert x) verwendet. Die Steigung ist 
ßı = 0.5. D.h., wenn der Blutwert um eine Einheit größer wird, dann werden 
gemäß Modell die Log-Odds für Krankheit um 0.5 größer. 

Nun erweitern wir das Modell zu einer multiplen logistischen Regression und 
nehmen zusätzlich die erklärende Variable z auf, die das Alter beschreibt. Wir 
nehmen an, dass folgendes logistisches Regressionsmodell gilt: 


log ( pe = o + Bi -x + B2 -z = —2 +0.3-x+0.1-z. 
1- p(x) 


Die Steigung bzgl. dem Blutwert x ist nun 6; = 0.3. Dieser Zusammenhang ist 
für das Alter bereinigt, weil Alter eine weitere erklärende Variable im Modell ist. 
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Es ist wichtig, diese Zusatzinformation in der Interpretation klar auszuweisen: 
Wenn der Blutwert um eine Einheit größer wird und das Alter gleich bleibt, 
dann werden gemäß Modell die Log-Odds für Krankheit um 0.3 größer. Oder 
auf der Skala der Odds: Wenn sich der Blutwert x um eine Einheit erhöht und 
das Alter gleich bleibt, dann erhöhen sich die Odds für Krankheit um den Faktor 
exp (0.3) ~ 1.35. Das entsprechende Odds-Ratio ist also 1.35. = 


3.5 Ausblick: Parameterschätzung und statistische 
Inferenz 


Die Parameter werden bei der logistischen Regression mit der Maximum- 
Likelihood-Methode geschätzt. Im Gegensatz zur linearen Regression gibt es keine 
geschlossene Lösung mehr („Lösungsformel“), sondern es muss ein numerisches 
Maximierungsverfahren verwendet werden. Wir verzichten hier auf Details. 

Auch die statistische Inferenz ist etwas komplizierter als bei der linearen Regres- 
sion. Während bei der linearen Regression die Verteilung der geschätzten Parameter 
(exakt) hergeleitet werden kann, ist dies bei der logistischen Regression nicht mehr 
der Fall, sondern es sind nur asymptotische Resultate vorhanden. Dies bedeutet, 
dass die berechneten Standardfehler, Vertrauensintervalle und p-Werte nur genähert 
gelten und die Näherung mit steigender Anzahl Beobachtungen besser wird. Details 
werden ausführlich z.B. in McCullagh und Nelder (1989) besprochen. 
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Die logistische Regression ist wie in Abschn. 3.2 gesehen ein Spezialfall eines ver- 
allgemeinerten linearen Modells (generalized linear model, kurz GLM). In R wird 
daher zum Anpassen eines logistischen Regressionsmodells an Daten die Funktion 
glm verwendet. Bevor wir uns die Details dieser Funktion anschauen, beginnen wir 
mit einem Datenbeispiel. 

Damit alle Beispiele auch selber durchgerechnet werden können, werden die 
Datensätze jeweils von folgender Webseite heruntergeladen: 


book.url <- "https://stat.ethz.ch/"meier/teaching/book-logreg" 


Beispiel: Spende 


In einer Umfrage wurden 1000 Personen befragt, ob sie bereit sind, eine Spende 
für einen bestimmten wohltätigen Zweck zu machen. Zudem wurde das Alter 
der Personen erhoben. Gibt es einen Zusammenhang zwischen der Spendebereit- 
schaft und dem Alter? Die Daten sind im data frame spende zu finden. Er enthält 
die Spalte alter für das erhobene Alter (numerische Variable) und die Spalte 
antwort für die Spendebereitschaft: eine Faktorvariable mit den beiden Levels 
"nein" und "ja". Das Referenzlevel ist "nein". Die Daten sind in Abb. 4.1 
dargestellt. < 


Um einen besseren Eindruck zu erhalten, betrachten wir die Struktur und die ersten 
paar Zeilen des Datensatzes. Mit der Funktion levels werden die Faktorstufen 
eines Faktors angezeigt. Die zuerst genannte Faktorstufe ist das Referenzlevel (mit 
der Funktion relevel könnte die Reihenfolge der Faktorstufen geändert werden). 
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Abb. 4.1 Histogramme der Variable alter für Spendebereitschaft „nein“ (links) und Spen- 
debereitschaft „ja“ (rechts) 


load(url(file.path(book.url, "data/spende.rda"))) 
str(spende) 

## 'data.frame': 1000 obs. of 2 variables: 

## $ alter : num 35.9 42.3 54.4 74.5 32.1... 
## $ antwort: Factor w/ 2 levels "nein","ja": 12111... 
head(spende, 4) 

## alter antwort 

## 1 35.9 nein 

## 2 42.3 ja 

## 3 54.4 nein 

## 4 74.5 nein 

levels(spende$antwort) 

## [1] "nein" "ja" 


4.1 Modell an Daten anpassen 


Bei der Funktion glm wird das Modell mit einer Formel spezifiziert und die Daten 
mit dem Argument data übergeben. Hinzu kommt das Argument family. Mit die- 
sem Argument kann festgelegt werden, welche Verteilung genau verwendet werden 
soll. Für die logistische Regression müssen wir im Argument family die Bino- 
mialverteilung angeben (denn: die Bernoulli-Verteilung ist ein Spezialfall einer 
Binomialverteilung) und als Linkfunktion die Logit-Funktion spezifizieren: family 
= binomial(link = "logit") (da die Logit-Funktion standardmäßig als Link- 
funktion ausgewählt wird, würde auch die Kurzform family = binomial aus- 
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reichen). Wichtig ist, dass die Log-Odds für das Level der Zielgröße modelliert 
werden, das nicht das Referenzlevel ist (hier: antwort = "ja", also Spendebereit- 
schaft vorhanden). Mit der Funktion summary werden die geschätzten Parameter 
und weitere Informationen angezeigt: 


fit.spende <- glm(antwort ~ alter, 
family = binomial(link = "logit"), 
data = spende) 

summary (fit.spende) 


BR... 

## Coefficients: 

## Estimate Std. Error z value Pr(>|z|) 

## (Intercept) -2.909573 0.236690 -12.29 <2e-16 *** 
## alter 0.049963 0.004326 11.55 <2e-16 *** 
BR... 


Die geschätzten Parameter werden im Output unter Coefficients angezeigt. Die 
Zeile (Intercept) bezieht sich auf den Parameter ßo (Achsenabschnitt auf der 
Skala der Log-Odds) und die Zeile alter bezieht sich auf die Steigung bezüglich der 
Variable alter (auf der Skala der Log-Odds), also 61. Die Spalten enthalten Infor- 
mationen zum geschätzten Parameter (Estimate), zur Genauigkeit der Parameter- 
schätzung, dem sogenannten Standardfehler (Std. Error), zum entsprechenden 
Verhältnis (z value) und zum p-Wert für die Nullhypothese (mit zweiseitiger Alter- 
nativhypothese), dass der entsprechende Parameter gleich Null ist (Pr(>|z|)). 


Beispiel: Spende (Fortsetzung) - Geschätztes Modell interpretieren 


Das Referenzlevel der Zielgröße antwort ist "nein" (keine Spendebereit- 
schaft). Also werden die Log-Odds für das andere Level, d.h. "ja" (Spen- 
debereitschaft) modelliert. Gemäß Output der Funktion summary wurde also 
folgendes zweistufige Modell geschätzt: Die Zielgröße Y ist 1, falls die Person 
zu einer Spende bereit ist (antwort="ja") und sonst 0 (antwort="nein"), 
d.h. Y ~ Bernoulli(p(alter)), wobei 


( p (alter) 
log 


x —2.910 + 0.050 - alter. 
1 — p(alter) 


Die Wahrscheinlichkeit für Spendebereitschaft in einem gewissen Alter ist also 
p(alter). Die geschätzten Parameter sind: Bo x —2.910 und Bi = 0.050. Gemäß 
dem geschätzten Modell sind also die Log-Odds für antwort="ja" (d.h., Person 
ist bereit zu Spende) z.B. bei einer Person mit alter = 50 ca. —2.910 + 0.050 - 
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50 = —0.41, was in etwa einer Wahrscheinlichkeit von 40 % entspricht. Die p- 
Werte für beide Hypothesentests Hp : o = 0 und Ap : 6; = 0 sind sehr klein: 
<2e-16 bedeutet, dass die p-Werte kleiner als 2 - 101° sind, also im Bereich der 
numerischen Genauigkeit des Computers. Die entsprechenden Nullhypothesen 
können also deutlich verworfen werden. < 


4.2 Interpretation der Effektstärke 


In Abschn. 3.4 haben wir die Faustregel kennengelernt: „Die Interpretation der 
Modellparameter der logistischen Regression auf der Skala der Log-Odds ist genau 
gleich wie bei einer linearen Regression“. Entsprechend einfach ist die Interpretation 
der geschätzten Parameter auf der Skala der Log-Odds. 


Beispiel: Spende (Forts.) - Effektstärke auf Skala Log-Odds 


Wenn das Alter um ein Jahr erhöht wird, erhöhen sich die Log-Odds für 
antwort="ja" um ca. 0.050. Weil sich Log-Odds und Wahrscheinlichkeiten 
in die gleiche Richtung ändern, heißt das: Die Spendebereitschaft nimmt mit 
dem Alter zu. < 


Vertrauensintervalle für die geschätzten Parameter werden mit der Funktion 
confint berechnet. Mit dem Argument level wird die Überdeckungswahrschein- 
lichkeit des Vertrauensintervalls festgelegt. 

Beispiel:Spende (Forts.) - Vertrauensintervalle auf Skala Log-Odds 

Das jeweilige 95 %-Vertrauensintervall für By und £; ist durch die erste bzw. die 


zweite Zeile des folgenden Outputs gegeben: 


confint(fit.spende, level = 0.95) 


## 2.5 % 97.5 % 
## (Intercept) -3.38249016 -2.45398788 
## alter 0.04161265 0.05858367 


Wir haben gesehen, dass sich die Log-Odds für antwort="ja" um ca. 0.050 
erhöhen, wenn das Alter um ein Jahr erhöht wird. Ein 95%-Vertrauensintervall 
für diesen Schätzwert ist (gerundet) [0.042, 0.059]. « 
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Etwas schwieriger wird es, wenn wir die Ergebnisse auf der Skala der Odds oder 
der Wahrscheinlichkeit interpretieren wollen (siehe die Abschn. 3.4.2 und 3.4.3). 
Eine wichtige Größe ist dabei das Odds-Ratio: Wenn die erklärende Variable um 
eine Einheit erhöht wird, dann erhöhen sich die Odds (für Erfolg) um den Faktor 
exp(ßı). Dies entspricht gerade dem Odds-Ratio. Ein Vertrauensintervall für das 
Odds-Ratio erhalten wir, indem wir ganz einfach die Exponentialfunktion auf die 
Grenzen des Vertrauensintervalls von 6; anwenden. 


Beispiel: Spende (Fortsetzung) - Odds Ratio 


Gemäß Output ist Bi * 0.050. Das (geschätzte) Odds-Ratio bezüglich Alter ist 
also 
exp(ßı) © exp(0.050) © 1.05. 


Dies bedeutet: Wenn das Alter um ein Jahr zunimmt, erhöhen sich die Odds 
für Spendebereitschaft um den Faktor 1.05. Ein 95%-Vertrauensintervall für 
By ist [0.042, 0.059]. Daher ist ein 95%-Vertrauensintervall für das Odds-Ratio 
gegeben durch 

[exp(0.042), exp(0.059)] ~ [1.043, 1.061]. 


Einfacher geht es, wenn diese Werte in R direkt berechnet werden: 


exp(confint(fit.spende, level = 0.95)) 


## 2.5 % 97.5 % 
## (Intercept) 0.03396278 0.08595014 
## alter 1.04249059 1.06033370 


Die Zeile alter entspricht (diesmal mit weniger Rundungsfehlern) den manuell 
berechneten Grenzen des 95%-Vertrauensintervalls für das Odds-Ratio. < 


In Abschn. 3.4.3 haben wir gesehen, dass sich die Effektstärke auf der Skala der 
Wahrscheinlichkeit nicht universell quantifizieren lässt. 
4.3 Vorhersagen 


Während die Effektstärke nur auf der Skala der Log-Odds oder der Odds einfach 
quantifiziert werden kann, ist eine Vorhersage für einen gegebenen Wert der erklä- 
renden Variable auf jeder Skala möglich. 
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Beispiel:Spende (Fortsetzung) - Vorhersagen 


Wie groß ist gemäß unserem Modell die Spendebereitschaft einer 60-jährigen 
Person? 


< 


Skala Log-Odds: In die Modellgleichung können wir alter = 60 einsetzen 
und erhalten die Log-Odds: 


Bo + Bi - 60 © —2.910 + 0.050 - 60 ~ 0.09. 


Die Log-Odds fiir Spendebereitschaft für eine 60-jährige Person sind gemäß 
unserem Modell also etwa 0.09. 

Skala Odds: Aus den geschätzten Log-Odds berechnen wir die geschätzten 
Odds für Spendebereitschaft: 


exp(0.09) ~ 1.094 


Die Odds für Spendebereitschaft sind für eine 60-jährige Person gemäß 
Modell also etwa 1.09. D.h., die Wahrscheinlichkeit, dass eine 60-jährige 
Person Spendebereitschaft hat, ist also (gemäß Modell) um den Faktor 1.09 
größer als die Wahrscheinlichkeit, dass diese Person keine Spendebereitschaft 
hat. 

Skala Wahrscheinlichkeit: Durch Umformen der Odds berechnen wir die 
Wahrscheinlichkeit für Spendebereitschaft: 


1.094 


—— 7 0.522 
1+ 1.094 Ya 


Die Wahrscheinlichkeit, dass eine 60-jährige Person eine Spendebereitschaft 
hat, ist also etwa 52 %. 


Viel einfacher ist es, wenn wir solche Berechnungen mit der Funktion predict 


erledigen. Vorhersagen mit dieser Funktion sind sowohl auf der Skala des linea- 
ren Prädiktors, also der Log-Odds (Argument type = "link") sowie auch auf 
der Skala der Wahrscheinlichkeit (Argument type = "response") möglich. Wir 
müssen dabei zunächst festlegen, für welche Werte der erklärenden Variablen Vor- 


hersagen gemacht werden sollen. Dazu erstellen wir einen data frame, der als Spalten 
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alle erklärenden Variablen unseres Modells enthält. Jede Zeile dieses data frames 
füllen wir anschliessend mit der Kombination der erklärenden Variablen, für die wir 
eine Vorhersage wünschen. Mehr Details zu dieser Funktion findet man in der Hilfe 
unter ?predict.glm. 


Beispiel:Spende (Fortsetzung) - Vorhersage mit predict 


Unser Modell hat nur eine erklärende Variable (alter) und wir wünschen eine 
Vorhersage für nur einen Wert dieser Variable (alter = 60). Mit diesen Infor- 
mationen können wir einen data frame erzeugen: 


spende.new <- data.frame(alter = 60) 


Diesen data frame übergeben wir der Funktion predict nun im Argument 
newdata und berechnen die vorhergesagten Werte auf der Skala der Log-Odds 
(type = "link") oder der Wahrscheinlichkeit (type = "response"). 


## Vorhergesagte Log-Odds 

(lo.pred <- predict(fit.spende, newdata = spende.new, 
type = "link")) 

## 1 

## 0.08819857 

## Vorhergesagte Wahrscheinlichkeit 

(p.pred <- predict(fit.spende, newdata = spende.new, 
type = "response")) 

## 1 

## 0.5220354 


Abgesehen von Rundungseffekten sind diese Werte und die manuell berech- 
neten Werte identisch. Übrigens ist die Antwortfunktion h schon im Objekt 
fit.spende enthalten, sodass es eine weitere Möglichkeit gibt, die Wahrschein- 
lichkeit aus den Log-Odds zu berechnen: 


fit.spende$family$linkinv(lo.pred) 
## 1 
## 0.5220354 


< 


Den vorhergesagten Wert auf der Skala der Odds können wir entweder aus der vor- 
hergesagten Wahrscheinlichkeit oder aus den vorhergesagten Log-Odds berechnen. 
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Beispiel:Spende (Fortsetzung) - Vorhersage der Odds 


## Vorhergesagte Odds: Variante 1 
p.pred / (1 - p.pred) 

## 1 

## 1.092205 

## Vorhergesagte Odds: Variante 2 
exp(lo.pred) 


## 1 
## 1.092205 
< 


Auf allen drei Skalen können wir auch entsprechende Vertrauensintervalle angeben. 
Dies funktioniert am einfachsten mit der Funktion predict und dem Argument 
se.fit = TRUE. Die „klassischen“ Vertrauensintervalle der Form „Schätzwert + 
Quantil x Standardfehler“ machen aber nur auf der Skala der Log-Odds Sinn (weil 
es dort keine Restriktion bzgl. der Skala gibt). Für die anderen Skalen (Odds, Wahr- 
scheinlichkeit) werden die Vertrauensintervalle mit den entsprechenden Funktionen 
mittransformiert: 


pred.link <- predict(fit.spende, newdata = spende.new, 
type = "link", se.fit = TRUE) 
quant <- 1.96 ## oder: qnorm(0.975) für 95%-Vertrauensintervall 
## Skala Log-Odds 
(CI.link <- pred.link$fit + c(-1, 1) * quant * pred.link$se.fit) 
## [1] -0.06310872 0.23950585 
## Skala Odds 
exp(CI.link) 
## [1] 0.9388414 1.2706211 
## Skala Wahrscheinlichkeit 
fit.spende$family$linkinv(CI.link) 
## [1] 0.4842281 0.5595919 


Dies bedeutet, dass gemäß Modell die Wahrscheinlichkeit, dass eine 60-jährige 
Person mit „Ja“ antwortet, im Intervall [0.48,0.56] liegt (95%-Vertrauensintervall). 
Wenn wir dies für verschiedene Alter ausrechnen und einzeichnen, erhalten wir die 
in Abb. 4.2 dargestellten Vertrauensbänder. 
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Abb. 4.2 Geschätzte Log-Odds, Odds, und Wahrscheinlichkeiten, inkl. jeweilige punktweise 
95%-Vertrauensintervalle (grau) 


4.4 Gruppierte Daten 


Die bisher verwendeten Daten hatten pro Zeile immer eine Beobachtung mit erklä- 
renden Variablen und der binären Information zur Zielgröße gespeichert (z.B. pro 
Zeile eine Person mit Alter und Status zu der Spendebereitschaft). Häufig liegen die 
Daten in einer anderen Form vor: Vor allem bei kontrollierten Experimenten gibt es 
oft Gruppen von (unabhängigen) Versuchseinheiten, die alle die gleichen erklären- 
den Variablen haben. Statt eine einzelne Beobachtung pro Zeile zu speichern, wird 
dann pro Zeile eine ganze Gruppe mit den erklärenden Variablen der Gruppe und 
der Anzahl der Erfolge bzw. der Misserfolge pro Gruppe gespeichert. 


Beispiel:Daten pro Gruppe 


Es werden 11 Gruppen mit je 30 (unabhängigen) kranken Tieren mit einem neuen 
Medikament behandelt. Innerhalb einer Gruppe erhält jedes Tier die gleiche 
Dosis, allerdings ist die Dosis für jede Gruppe anders. Wir könnten die Daten 
wie bisher speichern: Pro Zeile ein Tier mit der zugehörigen Dosis und dem 
Ausgang des Experiments (,,krank“ oder „gesund“). Dieser Datensatz hätte 330 
Zeilen. Alternativ können wir pro Zeile nur die Informationen einer Gruppe (und 
nicht einer Einzelbeobachtung) speichern. Die Spalte gesund des data frames 
medikament enthält die Anzahl der Tiere, die pro Gruppe gesund geworden sind 
(entsprechend die Spalte krank). Die Spalte Dosis enthält die Dosis, die jedem 
der 30 Tiere in einer Gruppe verabreicht wurde. Diese Art der Darstellung hilft 
uns, die Daten kompakter darzustellen: Wir brauchen nur 11 Zeilen und nicht 
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load(url(file.path(book.url, "data/medikament.rda"))) 


head(medikament) 

## dosis krank gesund 
## 1 0 29 1 
## 2 1 29 1 
## 3 2 27 3 
## 4 3 27 3 
## 5 4 21 9 
## 6 5 24 6 


Zum Beispiel wurden von den 30 Tieren in der Gruppe mit dosis = 5 genau 6 
Tiere gesund. « 


Um die logistische Regression wie gewohnt auf gruppierte Daten anwenden zu 
können, könnten wir den gruppierten Datensatz mit etwas Programmieraufwand in 
einen Datensatz mit einer Einzelbeobachtung pro Zeile umwandeln. 

Es geht aber auch einfacher: Der gruppierte Datensatz kann direkt in glm verwen- 
det werden. Dabei muss lediglich das erste Argument (formula) angepasst werden. 
Anstelle der Zielgröße übergeben wir eine Matrix mit zwei Spalten. Die erste Spalte 
enthält pro Gruppe die Anzahl der Erfolge (z.B. geheilte Tiere). Die zweite Spalte 
enthält pro Zeile die Anzahl der Misserfolge (z.B. Tiere, die krank geblieben sind). 
Hilfreich ist dabei der Befehl cbind, mit dem Vektoren spaltenweise in eine Matrix 
zusammengefasst werden. 


Beispiel: Daten pro Gruppe (Fortsetzung) 


Zusammengefasst in einer Matrix Können wir nun sofort glm aufrufen und erhal- 
ten den gewohnten Output mit der Funktion summary: 


fit.medi <- glm(cbind(gesund, krank) ~ dosis, 
family = binomial(link = "logit"), 
data = medikament) 
summary(fit.medi) 


BR... 

## Coefficients: 

## Estimate Std. Error z value Pr(>|z|) 

## (Intercept) -4.29356 0.46067 -9.320 <2e-16 *** 
## dosis 0.74103 0.07601 9.749 <2e-16 *** 
BR... 


< 
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Klassifikation 


Bei der Klassifikation werden Beobachtungen anhand von Eigenschaften in vorher 
festgelegte Klassen eingeteilt. Wir beschränken uns auf nur zwei Klassen und spre- 
chen dann von „binärer“ Klassifikation. Die beiden Klassen werden häufig „positiv“ 
und „negativ“ genannt. 

Klassifikation wird in der Praxis sehr häufig verwendet. Zum Beispiel: Ist ein 
Patient mit gewissen diagnostischen Werten krank oder gesund? Oder: Wird ein 
Kunde mit bekanntem Kaufverhalten ein neues Produkt kaufen oder nicht? 

Die logistische Regression kann zur binären Klassifikation verwendet werden: 
Sie modelliert die Wahrscheinlichkeit zu einer von zwei Klassen (z.B. „positiv“‘) 
zu gehören. Um klassifizieren zu können, müssen wir zudem noch eine Grenze für 
die Wahrscheinlichkeit festlegen, z.B. 50%. Alle Beobachtungen mit einer Wahr- 
scheinlichkeit von 50% oder mehr werden der einen Klasse („positiv“) und alle 
Beobachtungen mit einer Wahrscheinlichkeit von unter 50% werden der anderen 
Klasse („negativ“) zugeordnet (je nach Anwendungszweck kann auch eine andere 
Grenze besser geeignet sein). 


Beispiel: Spende (Fortsetzung): Klassifikation 


Das angepasste logistische Regressionsmodell modelliert die Wahrscheinlichkeit 
für Spendebereitschaft „ja“ und wir legen willkürlich fest, dass diese Klasse die 
„positive“ Klasse ist. Falls diese Wahrscheinlichkeit 50% oder mehr ist, wird 
die Person als „Spender“ („positiv“) klassifiziert. Ansonsten wird sie als „Kein 
Spender“ („negativ“) klassifiziert. Konkret: Sollte gemäß unserem Modell eine 
25-jährige Person eher als „Spender“, also „positiv“, oder als „Kein Spender“, 
also „negativ“, klassifiziert werden? 
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Zunächst berechnen wir die Wahrscheinlichkeit für Spendebereitschaft: 


datNew <- data.frame(alter = 25) 

predict(fit.spende, newdata = datNew, type = "response") 
## 1 

## 0.1596947 


Die Wahrscheinlichkeit für Spendebereitschaft ist gemäß unserem Modell etwa 
16 %, also kleiner als die Grenze von 50 %. D.h., wir klassifizieren diese Person 
als „Kein Spender“ bzw. „negativ“. < 


Die Daten, mit denen das Modell angepasst bzw. „trainiert“ wurde, werden auch 
Trainingsdaten genannt. Entscheidend für die Anwendung ist häufig die Frage, wie 
gut die Methode funktioniert, um die Klasse bei neuen Daten vorherzusagen. Zum 
Beispiel im Klinikalltag, bei einem neuen Patienten, dessen diagnostische Werte 
man kennt: Ist er gesund oder krank? 

Um das einschätzen zu können, kann man einen zweiten Datensatz verwenden, 
der zur Modellanpassung bisher nicht verwendet wurde, also „neu“ ist. Man spricht 
von sogenannten Testdaten. Alternativ kann Kreuzvalidierung verwendet werden: 
Es werden dann die vorhandenen Daten (typischerweise mehrmals) in Trainings- 
und Testdaten aufgeteilt. Wir verfolgen dies hier aber nicht weiter. 

Wir klassifizieren nun jede Beobachtung im Testdatensatz mit unserer Klassi- 
fikationsmethode. Wenn sie gut funktioniert, sollten praktisch alle Beobachtungen 
richtig klassifiziert werden. Um das Ergebnis übersichtlich darzustellen, wird häu- 
fig auch eine Tabelle mit den wahren Klassen als Spalten und den vorhergesagten 
Klassen als Zeilen angegeben (die sogenannte confusion matrix). Die möglichen 
Ausgänge sind in Tab. 5.1 dargestellt. Wir verwenden jeweils gerade die entspre- 
chenden englischen Bezeichnungen. Wenn also z. B. bei einer Beobachtung, die in 
der Tat zur Kategorie „negativ“ gehört, die Vorhersage „positiv“ gemacht wird, dann 
spricht man von einem „false positive“. 


Tab. 5.1 Schematische Darstellung einer confusion matrix 


Wahrheit 


negativ positiv 


negativ |true negative (TN)|false negative (FN) 
Vorhersage 


positiv | false positive (FP)| true positive (TP) 
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Beispiel: Spende (Fortsetzung): Confusion Matrix und Fehlerrate 


Unsere Klassifikationsmethode wurde mit den Trainingsdaten im data frame 
spende trainiert. Wie gut wiirde dieser Klassifikator die Spendebereitschaft von 
neuen Personen vorhersagen? Um das herauszufinden, verwenden wir einen Test- 
datensatz: Im data frame spende. test sind 1000 weitere Personen zu Alter und 
Spendebereitschaft befragt worden. Für jede Person machen wir nun basierend 
auf ihrem Alter eine Vorhersage bezüglich Spendebereitschaft und vergleichen 
dann mit der wahren Spendebereitschaft, die ja in spende.test verfügbar ist. 


## Berechne Wahrscheinlichkeit 
p.pred <- predict(fit.spende, newdata = spende.test, 


type = "response") 
## Leite aus Wahrscheinlichkeit die Klasse ab 
vorhersage <- factor(ifelse(p.pred >= 0.5, "ja", "nein"), 
levels = c("nein", "ja")) 


wahrheit <- spende.test$antwort 


## Tabelliere Ergebnis: confusion matrix 
table(vorhersage, wahrheit) 


## wahrheit 

## vorhersage nein ja 
## nein 443 194 
## ja 140 223 


In der Tabelle (entspricht der confusion matrix) ist die wahre Spendebereitschaft 
in den Spalten und die vorhergesagte Spendebereitschaft in den Zeilen zu sehen. 
In der ersten Spalte sehen wir 443 + 140 = 583 Personen, die in Wahrheit keine 
Spendebereitschaft hatten („Spendebereitschaft nein“): 443 Personen wurden in 
die richtige Klasse „Spendebereitschaft nein“ eingeteilt, während die übrigen 140 
Personen fälschlicherweise in die Klasse „Spendebereitschaft ja“ eingeteilt wur- 
den. 

Analog sehen wir in der zweiten Spalte 194 + 223 = 417 Personen, die in 
Wahrheit zu einer Spende bereit sind. Davon hat unsere Klassifikationsmethode 
aber nur 223 korrekterweise in die Klasse „Spendebereitschaft ja“ eingeteilt. 
Die übrigen 194 Personen wurden fälschlicherweise in die Klasse „Spendebe- 
reitschaft nein“ eingeteilt. 

Zusammenfassend hat unsere Klassifikationsmethode also bei 140 + 194 = 
334 Personen (von insgesamt 1000) einen Fehler gemacht. Die sogenannte 
Fehlerrate (oder: misclassification error) auf diesem Testdatensatz ist also 


334 
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Übliche Gütezahlen für einen Klassifikator sind die True Positive Rate (TPR), 


Anzahl true positives #TP 


TPR = = , 
Anzahl Beob., die in Wahrheit positiv sind #TP-+#FN 


wobei wir mit dem Symbol „#“ das Wort „Anzahl“ abkürzen. Die TPR gibt uns also 
an, wieviel Prozent der in der Tat positiven Beobachtungen wir korrekt vorhersagen 
können. 

Umgekehrt ist die False Positive Rate (FPR) gegeben durch 


Anzahl false positives #FP 


FPR = = . 
Anzahl Beob., die in Wahrheit negativ sind #FP+#TN 


Sie entspricht dem Anteil „positiv“ klassifizierter Beobachtungen unter allen Beob- 
achtungen, die in Wahrheit „negativ“ sind. Wünschenswert ist also eine große TPR 
und eine kleine FPR. Ein perfekter Klassifikator hat TPR = 1 („wir erwischen alle 
in der Tat positiven Fälle“) und FPR = 0 („wir machen nie den Fehler, dass wir 
eine in der Tat negative Beobachtung als positiv vorhersagen“). 

Im medizinischen Bereich werden alternativ auch die Begriffe Sensitivität (= 
TPR) und Spezifität (= 1 — FPR) verwendet. 


Beispiel: Spende (Fortsetzung): TPR und FPR 


Insgesamt gibt es 417 „positive“ Beobachtungen (also Personen mit Spendebe- 
reitschaft). Davon wurden 223 Beobachtungen richtigerweise in die „positive“ 
Klasse („Spender“) eingeteilt. Für die True Positive Rate gilt also: 


22 
TPR = ze = 0.53 

417 
Umgekehrt gab es 583 in der Tat „negative“ Beobachtungen (Personen ohne 
Spendebereitschaft). Davon wurden 140 Beobachtungen fälschlicherweise in die 
„positive“ Klasse („Spender“) eingeteilt. Für die False Positive Rate gilt also: 


FPR = nn x 0.24 
583 


Die Sensitivität ist also 0.53 und die Spezifität 1 — 0.24 = 0.76. < 


Bei unserer Klassifikationsmethode haben wir die Grenze für die Wahrscheinlich- 
keit, den sogenannten ,„cutoff‘, bei 50 % angesetzt: Alle Beobachtungen mit einer 
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Wahrscheinlichkeit von 50% oder mehr werden der „positiven“ Klasse und alle 
Beobachtungen mit einer Wahrscheinlichkeit von unter 50% werden der „negati- 
ven“ Klasse zugeordnet. Daraus hat sich eine gewisse TPR und FPR ergeben. 

Wenn wir diese Grenze verschieben, ändern sich die Vorhersagen und somit auch 
die TPR bzw. FPR. Wenn die Grenze z.B. 0 % ist, werden alle Beobachtungen in die 
Klasse „positiv“ eingeteilt. D. h., alle Beobachtungen, die in Wahrheit „positiv“ sind, 
werden korrekterweise als „positiv“ klassifiziert. Somit gilt TPR = 1. Allerdings 
werden auch alle in Wahrheit „negativen“ Beobachtungen (fälschlicherweise) als 
„positiv“ klassifiziert. Daher gilt FPR = 1. 

Wenn wir diese Grenze für die Wahrscheinlichkeit erhöhen, ändert sich die Ein- 
teilung bei mehr und mehr Personen von „positiv“ zu „negativ“. Dadurch nehmen 
sowohl TPR als auch FPR ab. Wenn die Grenze schliesslich 100 % ist, wird jede 
Person in die Klasse „negativ“ eingeteilt. Damit gilt sowohl TPR = 0 als auch 
FPR = 0. 

Je nach ,,cutoff* ergibt sich also ein anderer Kompromiss zwischen (möglichst 
großer) TPR und (möglichst kleiner) FPR. Die ROC-Kurve (ROC steht für „Recei- 
ver Operating Characteristic“) visualisiert alle möglichen Kombinationen von TPR 
und FPR, die durch eine Einstellung des „cutoffs“ erzielt werden können: Auf der 
horizontalen Achse wird die FPR und auf der vertikalen Achse die TPR aufgetragen. 
Nun wird für jeden denkbaren Wert des „cutoffs“ ein Punkt bei der entsprechenden 
TPR und FPR eingezeichnet. Daraus ergibt sich eine Kurve, die links unten bei 
TPR = 0 und FPR = 0 (entspricht einem „cutoff“ von 100%) beginnt und bis 
rechts oben bei TPR = 1 und FPR = 1 (entspricht einem „cutoff“ von 0 %) mono- 
ton ansteigt. D.h., wenn man den ,,cutoff* von 0 % schrittweise auf 100 % erhöht, 
dann wird die Kurve von rechts oben nach links unten durchlaufen. 

Entscheidend fiir die Giite des Klassifikators ist die Art des Anstiegs. Bei einem 
Klassifikator, der auf bloßem Raten basiert, entspricht die erwartete ROC-Kurve 
gerade der Winkelhalbierenden. Im Gegensatz dazu würde ein perfekter Klassifi- 
kator zunächst vertikal bis TPR = 1 ansteigen und dann horizontal bis FPR = 1 
verlaufen. In der Praxis wird die ROC-Kurve meist irgendwo dazwischen liegen. 
Grundsätzlich ist ein Klassifikator mit einer größeren Fläche unter der ROC-Kurve 
(„area under the curve“ oder kurz AUC) besser. Bei bloßem Raten erwartet man 
AUC = 0.5 und bei einem perfekten Klassifikator ist AUC = 1. 

Die ROC-Kurve kann helfen, einen guten ,,cutoff* zu finden. Hier gibt es keine 
eindeutige Regel, allerdings sollte die TPR möglichst groß und die FPR möglichst 
klein sein. D.h., wir suchen auf der ROC-Kurve einen Punkt, der möglichst weit 
„links oben“ liegt. Weitere Informationen zur Analyse einer ROC-Kurve findet man 
z.B. in Fawcett (2006). 
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In R kann die ROC-Kurve z. B. mit dem Paket ROCR (Sing et al. 2005) oder pROC 
(Robin et al. 2011) erzeugt werden. 


Beispiel: Spende (Fortsetzung): ROC-Kurve 


Wir verwenden das Paket ROCR um die ROC-Kurve des angepassten logistischen 
Regressionsmodells zu berechnen. 


library(ROCR) 
## Wahrscheinlichkeiten gemäß logistischem Regressionsmodell 
pred.test <- predict(fit.spende, newdata = spende.test, 
type = "response") 
## Erstelle prediction-Objekt für ROCR 
pred <- prediction(pred.test, spende.test$antwort, 
label.ordering = c("nein", "ja")) 
perf <- performance(pred, "tpr", "fpr") 
plot(perf) 
points(x = 140 / 583, y = 223 / 417, pch = 20) ## cutoff 0.5 
abline(a = 0, b = 1) ## Winkelhalbierende 
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Der gewählte cutoff von 0.5 (schwarzer Punkt) scheint ein vernünftiger Kom- 
promiss zwischen großer TPR und kleiner FPR zu sein. 
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Die AUC ist etwa 0.68, also größer als der Wert von 0.5, den wir mit bloßem 
Raten erwarten würden. 


auc <- performance(pred, "auc") 
auc@y.values 

## [[1]] 

## [1] 0.6834471 


< 


Um mehrere Klassifikationsmethoden miteinander zu vergleichen, werden haufig 
die entsprechenden ROC-Kurven in einem Bild gezeigt. Die zugehörigen AUC- 
Werte können zudem mit statistischen Tests miteinander verglichen werden, zum 
Beispiel mit der Funktion roc.test im Paket pROC. 
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Ausblick 6 


Zum Modellieren von binären Zielgrößen bzw. Wahrscheinlichkeiten haben wir 
die logistische Regression kennengelernt. Alternative Methoden verwenden andere 
Linkfunktionen (z.B. basierend auf „probit“ oder „complementary log-log“), aber 
die logistische Regression hat entscheidende Vorteile: Zum einen ist die Interpreta- 
tion via Odds relativ einfach möglich. Zum anderen ist das Anwendungsspektrum 
der logistischen Regression sehr breit: Sie kann sowohl auf prospektive und retro- 
spektive Studien als auch auf Querschnittsstudien angewendet werden, während 
viele alternative Methoden nur auf prospektive Studien angewendet werden können 
(Wilson and Lorenz 2015). 

Die logistische Regression beruht auf mehreren Annahmen. Wenn diese Annah- 
men nicht erfüllt sind, sind die berechneten Ergebnisse falsch. Leider ist es für die 
Software in der Regelnicht möglich, Verletzungen dieser Annahmen automatisch zu 
erkennen. Die Überprüfung der Modellannahmen liegt somit in der Verantwortung 
des Anwenders. 

In diesem Kapitel möchten wir diverse Grenzen der logistischen Regression 
aufzeigen und Hinweise geben, welche Alternativen in solchen Fällen möglich sind. 


6.1 Überprüfung der Modellannahmen 


Verglichen mit der linearen Regression ist es bei der logistischen Regression 
anspruchsvoller, die Modellannahmen zu prüfen. Folgende Punkte sollten überprüft 
werden: 


e Linearität auf Skala Log-Odds: Bei (evtl. von Hand) gruppierten Daten können 
die empirischen Log-Odds pro Gruppe ermittelt und gegen erklärende Variablen 
aufgetragen werden. Dabei sollte ein linearer Zusammenhang ersichtlich sein. 
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e Allgemeine Güte des Modells: Mit dem Hosmer-Lemeshow-Test (Hosmer Jr 
et al. 2013) kann die Modellgüte einer logistischen Regression überprüft werden 
(z. B. mit der Funktion hoslem. test in Paket ResourceSelection (Lele 
etal. 2019)). Allerdings kann dieser Test nur mit vielen Beobachtungen (mehrere 
hundert) Modellabweichungen zuverlässig detektieren. 

e Auffällige Beobachtungen: Mit der Funktion residuals lassen sich verschie- 
dene Arten von Residuen (z.B. sogenannte „Devianz-Residuen“) der einzelnen 
Beobachtungen berechnen und vergleichen. Vergleichsweise große Absolutbe- 
träge weisen auf Beobachtungen hin, die vom Modell nicht gut erklärt werden. 
Es gibt noch weitere Varianten von Residuen. 


Ausführliche Informationen zu diesem Thema findet man z.B. in Harrell (2015, 
Abschn. 10-12). 


6.2 Häufige Probleme 
6.2.1 Korrelierte Beobachtungen 


Im Modell der logistischen Regression nehmen wir an, dass die Beobachtungen 
unabhängig voneinander sind. 

In der Praxis trifft dies bei gruppierten Daten häufig nicht mehr zu. Zum Beispiel 
könnte es mehrere Beobachtungen innerhalb der gleichen Familie oder innerhalb der 
gleichen Klinik geben. Ein weiteres Beispiel sind sogenannte longitudinale Daten: 
Pro Patient werden mehrere Beobachtungen in einem Zeitverlauf gemacht. 

Dabei sind sich Beobachtungen innerhalb derselben Gruppe möglicherweise 
ähnlicher als Beobachtungen aus verschiedenen Gruppen. Infolge der nicht mehr 
gültigen Unabhängigkeit stimmt dann die vom Modell angenommene Varianz nicht 
mehr (siehe auch die Bemerkung in Abschn. 3.2 mit der Ankoppelung der Varianz 
an den Erwartungswert). Die Daten zeigen in diesem Falle typischerweise eine grö- 
Bere Streuung als vom Modell erwartet. Dies wird in der Literatur als Overdisper- 
son bezeichnet. Entsprechende Erweiterungen, die eine größere Flexibilität bei der 
Modellierung der Varianz erlauben, sind in der Funktion glm schon implementiert, 
z.B. mit der Familie quasibinomial. Man schwächt damit die Ankoppelung 
der Varianz an den Erwartungswert ab. Weitere Details zu dieser Methode und der 
Umsetzung in R findet man in Abschn. 4 von Wilson und Lorenz (2015). 

Alternativ gibt es noch zwei weit verbreitete Methoden, mit denen die logistische 
Regression auf solche Datenstrukturen erweitert werden kann: Die Generalized 
Linear Mixed Models (Jiang 2007), kurz GLMMs, sind im Paket 1me4 (Bates et al. 
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2015) implementiert. Die Generalized Estimation Equations (Ziegler 2011), kurz 
GEE, sind im Paket gee (Carey 2019) implementiert. 

Weitere Methoden zum Umgang mit korrelierten binären Beobachtungen findet 
man in Wilson und Lorenz (2015). 


6.2.2 Wenige Beobachtungen 


Die in R produzierten Schätzwerte basieren auf der Annahme, dass sehr viele Beob- 
achtungen zur Verfügung stehen (,,asymptotische Resultate‘). Falls die Anzahl der 
Beobachtungen „zu klein“ ist, liegen die Schätzwerte der logistischen Regression 
systematisch daneben, siehe z.B. Nemes et al. (2009). 

Es stellt sich natürlich die Frage, ab wann die Anzahl der Beobachtungen „groß 
genug“ ist. Für diese Frage gibt es leider noch keine einfache und praxistaugliche 
Antwort. Eine ausführliche Diskussion des Themas findet man in van Smeden et al. 
(2016). 

Falls die Anzahl der Beobachtungen „zu klein“ ist, Könnte die sogenannte „exakte 
logistische Regression“ verwendet werden. Während die Theorie zu dieser Methode 
existiert (siehe z. B. Abschn. 8.4 in Hosmer Jr et al. (2013) oder Abschn. 8 in Wilson 
und Lorenz (2015)), ist eine zuverlässige Implementierung in der Software R zur 
Zeit nicht verfügbar. 


6.2.3 Perfekte Separierung 


Sogenannte „perfekte Separierung“ tritt dann auf, wenn die beiden Gruppen der 
Zielgröße perfekt durch eine erklärende Variable (oder einer Linearkombination 
von mehreren erklärenden Variablen) getrennt werden können. Intuitiv scheint diese 
Situation sehr erstrebenswert, allerdings führt sie zu technischen Problemen bei 
der Parameterschätzung. Das Problem äußert sich häufig dadurch, dass manche 
geschätzte Parameterwerte (betragsmäßig) unendlich groß werden. 

Dieses Problem tritt besonders häufig auf, wenn es wenige Beobachtungen gibt 
oder wenn eine der beiden Gruppen sehr selten ist. 

Eine mögliche Lösung ist die logistische Regression nach Firth und wird in 
Heinze und Schemper (2002) diskutiert. Weitere Verbesserungen dieser Methode 
(FLIC und FLAC) werden in Puhr etal. (2017) vorgestellt. Alle genannten Methoden 
sind im Paket logistf (Heinze et al. 2020) implementiert. 
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6.3 Erweiterungen auf mehr als zwei Klassen 


Bei der logistischen Regression besteht die Zielgröße aus einer Faktorvariable mit 
genau zwei Levels (z.B. Spendebereitschaft „nein“ oder „ja“). 

Es gibt Erweiterungen der logistischen Regression für mehr als zwei Levels. 
Dabei unterscheidet man, ob die Levels ungeordnet (z.B. bei Wahlen „Partei A“, 
„Partei B“, „Partei C“) oder geordnet (z.B. bei Krankheitssymptomen „leicht“, 
„mittel“, „schwer“) sind. Diese Unterscheidung spielt übrigens bei nur zwei Levels 
keine Rolle. 

Bei mehr als zwei ungeordneten Levels kann die multinomiale logistische 
Regression verwendet werden. Der theoretische Hintergrund wird in Abschn. 5.2 
von Fahrmeir et al. (2009) illustriert. In R kann die Funktion multinom aus dem 
Paket nnet (Venables und Ripley 2002) verwendet werden. Erweiterungen findet 
man im Paket mlogit (Croissant 2020). 

Bei mehr als zwei geordneten Levels kann die „proportional odds logistic 
regression (POLR)“ verwendet werden. Mehr Informationen dazu findet man in 
Abschn.5.3 von Fahrmeir et al. (2009). In R kann die Funktion polr aus dem 
Paket MASS (Venables und Ripley 2002) verwendet werden. Erweiterungen gibt es 
im Paket ordinal (Christensen 2019). 
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Was Sie aus diesem Essential mitnehmen 
konnen 


e Sie verstehen, wie mit der logistischen Regression eine binäre Zielgröße durch 
erklärende Variablen modelliert werden kann. 

e Sie wissen, wie die Koeffizienten des logistischen Regressionsmodells auf der 
Skala der Log-Odds, der Odds und der Wahrscheinlichkeit interpretiert werden. 

e Sie können das logistische Regressionsmodell mit der Statistiksoftware R an 
Daten anpassen, damit Vorhersagen machen und für Klassifikationsprobleme 
einsetzen. 
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Zum Weiterlesen 


e Ein anwendungsorientiertes Lehrbuch, das sich gut zum Selbststudium eignet, 
ist Kleinbaum und Klein (2010). 

e Eine umfassende anwendungsorientierte Behandlung des Themas findet man in 
Hosmer Jr et al. (2013). 

e Die logistische Regression fallt in die Klasse der GLMs. In Fahrmeir et al. (2009) 
findet man eine Einführung der Theorie auf Deutsch sowie viele weitere Mög- 
lichkeiten. 

e Anwendungsnahe Einfiihrungen in GLMs, inkl. der Verwendung von R, sind 
unter anderem in Dunn und Smyth (2018), Faraway (2016), Fox und Weisberg 
(2018) zu finden. 
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